Elaboración de distribución de 
frecuencias y cálculo de estadísticas 
descriptivas con Gnumeric 

Dr. Servio Interiano, noviembre 2020. 


índice 


Introducción 2 

Gnumeric 2 

Aplicación de Gnumeric para ei análisis de datos. 4 

Preparación de ia base de datos. 5 

Instrumento de recolección de datos 9 


Distribución de frecuencias y cáicuio de estadísticas descriptivas empleando Gnumeric. 


Cuadros para variabies cualitativas. 
Anáiisis finai 


20 


Introducción 


Cuando se inicia con el análisis de un grupo de datos, lo primero que debemos hacer es la 
presentación de las estadísticas descriptivas, las distribuciones de frecuencias y las gráficas 
que ayuden a visualizar el comportamiento de los datos. 

Es normal encontrar en los cursos, trabajos y/o laboratorios en los que se deba analizar una 
serie de datos recolectados de una muestra o población. 

El procedimiento es básicamente el mismo para todos los grupos. 

En el presente documento, vamos a revisar una manera sencilla de hacer esta descripción 
inicial de los datos aplicando un programa de hoja electrónica multiplataforma y de descarga 
gratuita, el Gnumeric. 

Gnumeric 


Gnumeric 

gn u meri c. o rg 



Gnumeric 1.6.3 bajo Ubuntu. 

Tipo de hoja de cálculo 

programa software libre 

DesarroMador Proyecto GNOME 
Autor Miguel de Icaza 

Lanzamiento 31 de diciembre de 2001 
Última 1.12.48 íinfoi^) 

versión 13 de agosto de 2020 (2 

estable meses y 20 dias) 

Género Hoja de cálculo 

Programado C 
en 

Sistema Multiplataforma 

operativo 

Licencia GPL 

Estado actual En desarrollo 

En español Sí 

[editar dates en Vyikidata] 


“Gnumeric es una hoja de cálculo libre que forma parte 
del entorno de escritorio libre GNOME. La versión 1.0 de 
Gnumeric fue publicada el 31 de diciembre de 2001. 
Gnumeric es distribuida como software libre bajo la 
licencia GNU GPL; Su intención es, junto con todo el 
software libre, reemplazar al software privativo y hojas de 
cálculo no libres como Microsoft Excel. 

Gnumeric fue creado por Miguel de Icaza, pero él en la 
actualidad trabaja en otros proyectos. El encargado actual 
del proyecto es Jody Goldberg.” ^ 

Características 

Gnumeric es capaz de importar y exportar datos en 
distintos formatos, lo que lo hace compatible con otros 
programas como Excel, Applix, Quattro Pro, PlanPerfect, 
Sylk, DIF, Oleo, SC, StarOffice, OpenOffice.org, y Lotus 
1-2-3. Su formato nativo es XML, comprimido con gzip. 
También importa y exporta varios formatos de texto, como 
tablas HTML o texto separado por comas. 


^ Gnumeric. (2020, 25 de agosto). Wikipedia, La enciclopedia libre. Fecha de consulta: 05:13, 
noviembre 6, 2020 desde https://es.wikipeclia.org/w/index.php?title=Gnumeric&oldid=128732825. 



















Gnumeric se distribuye según las condiciones de la Licencia Pública General de GNU. Ha sido 
portado a MS Windows (Versiones 2000 y superiores). Para noviembre de 2010 la versión 
disponible para Windows es: 1.12.9. Luego ia versión para Windows fue discontinuada. 

El programa Gnumeric en compañía de Abiword y otros programas es a veces llamado Gnome 
Office y se presenta como una aiternativa ligera a suites de oficina como OpenOffice.org, 
LibreOffice o KOffice. 

El hecho de que sea un programa multiplataforma bajo la Licencia Pública Generai de GNU, 
significa que se puede instalar en prácticamente cuaiquier equipo y utilizarlo sin probiemas de 
iicencias o derechos de autor, por lo que es ideal para ser usado en investigación en escueias y 
universidades. 

Además tiene un potente sistema de anáiisis estadístico integrado y nos permite hacer 
distribuciones de frecuencia de manera simple y sencilla. 

Lo descargamos directamente desde su página en “gnumeric.org” y lo instalamos siguiendo ias 
instrucciones, dependiendo dei sistema operativo que tengamos. 


Aplicación de Gnumeric para el análisis de datos. 


Vamos a partir de un 
ejemplo hipotético 
para ejemplificar de 
mejor manera cómo 
hacer el análisis de un 
par de grupos. 

Imaginemos que en 
un curso X nos dan 
las instrucciones del 
cuadro de la derecha. 

Nos piden hacer una 
investigación acerca 
de una variable 
numérica cuantitativa 
que después deberá 
presentarse también 
en categorías. En el caso de nuestro ejemplo el índice de Masa Corporal, IMC. 


FinaJniente calcularemos el índice de masa corporal (IMC) utilizando la siguiente 
fórmula: 

Peso(kg)/Talía (m)^ 

La interpretación para el IMC según la QMS: 

* <16: Criterio de ingreso a un centro de atención médica 

* 16 a 17: Infra peso 

* 17 a 18: Bajo peso 

* 18 a 25: Peso normal (Saludable) 

* 25 a 30: Sobrepeso (Obesidad grado I) 

* 30 a 35: Sobrepeso crónico (Obesidad grado 11) 

* 35 a 40: Obesidad premórbida (Obesidad grado III) 

* >40: Obesidad mórbida (Obesidad grado IV) 

Se le solicita que, de acuerdo con los parámetros acostumbrados, escriba su 
informe de laboratorio y realice un análisis exhaustivo de: 

* La distribución generada por el peso (hacer curva de distribución normal) y 
su estadística descriptiva (las dos secciones) 

* La proporción de individuos con tas distintas variables. 

* Establecer si existe diferencias entre hombres y mujeres para el desarrollo 
de síndrome metabólico a través del IMC y la circunferencia abdominal como 
predictores de riesgo (puede utilizar una prueba de distribución normal) 






Para el ejemplo vamos a suponer que trabajamos con los alumnos de las dos secciones del 
segundo grado de la carrera de Cirujano Dentista, asignados al curso de Fisiología. 

Además de la variable principal que es el IMC, hay otras variables que deben considerarse 
aunque no se detallen específicamente en las instrucciones de nuestro ejemplo, como lo son la 
sección (GRUPO), la edad, el género (ya que se solicita que se haga una prueba de diferencia 
entre hombres y mujeres), el peso y la talla (que son necesarios para la determinación del 
IMC). 

Por lo que deberemos preparar nuestra base de datos de manera que facilite el análisis de los 
datos. 

Preparación de la base de datos. 

Antes de poder emplear un programa de análisis en nuestros datos, debemos tener una base 
de datos adecuada. Vamos a tomar prestado el capítulo 5 del libro “APLICACIÓN PRÁCTICA 
DE R PARA EL ANÁLISIS DE DATOS EN INVESTIGACIÓN , en el cual se trata el arreglo de 
la base de datos para poder usarse en R que es un lenguaje de programación robusto que se 
emplea para el análisis de datos. En nuestro caso el arreglo general de la base de datos 
también es aplicable para Gnumeric o cualquier programa de análisis, así que aunque nosotros 
no vayamos a aplicar R para el análisis de los datos, la estructura y los nombres de las 
variables es conveniente que lo manejemos de manera correcta. 

"Uno de los principales problemas que me he encontrado en los 25 años que llevo de 
enseñar estadística en la universidad, es la estructura de la base de datos que se desea 
analizar. 

En la mayoría de los casos es una hoja de Excel, la cual tiene la peor estructura posible 
y en algunos casos extremos son tablas elaboradas en Word u otro procesador de 
texto. 

Lo primero que debemos tener en cuenta, es que nuestro archivo de base de datos 
debe contener el registro de los datos y debe tener cierta estructura para poder 
analizarlo de manera efectiva. 


Nuestro archivo de base de datos debe contener el registro 
de los datos y debe tener cierto estructuro específico poro 
poder analizarlo de manera efectiva. 


2 https://archive.org/details/curso-practico-de-r-v-5 “CURSO PRACTICO DE R V 5” by Servio T. Interiano 
C. 

Publication date 2020-09-02, Usage Attribution-NonCommercial-ShareAlike 4.0 International 





- □ X 


Archivo Editar Ver Insertar Fornnato Hoja Datos Herramientas Ventana Ayuda 


ÉrZ = 


B 


C HIJKLMNOPQRST 


ZON^ DE LA PLAYA 
FORMA 

CLASE DE EDADES 


► + Hojal 



No pueden analizarse 
datos agrupados o 
archivos con celdas 
unidas, textos 

explicativos, filas o 
columnas en blanco, 
etc. 


Por lo que revisaremos un poco el cómo preparar de la mejor manera posible, nuestros 
datos para poder importarlos a R (o cualquier programa de análisis). 

Vamos a asumir que tenemos los datos en una hoja electrónica, puede ser esta Excel, 
Gnumeric, LibreOffice Cale, o cualquier hoja electrónica que se utilice. 

Columnas y Filas 

• Las columnas representan a nuestras variables. El nombre de nuestras variables 
será el encabezado de las columnas y lo vamos a ubicar en la primera fila. 

• Nuestras filas representan a nuestras observaciones o unidades de estudio (los 
sujetos observados). Vamos a emplear la primera columna para ubicar los 
identificadores de las unidades de estudio. Cada identificador de fila debe ser 
único, por lo que no debemos tener identificadores repetidos. 

Veamos un ejemplo, tomado de un trabajo de investigación de estudiantes de la 
Facultad de Biología de la Universidad de San Carlos de Guatemala (pero estoy seguro 
de que se pueden encontrar ejemplos así en casi cualquier facultad y/o universidad). 

En este caso se estaba haciendo un recuento de agujeros de cangrejos en una zona de 
playa a una altura "Media", se estaban utilizando dos formas geométricas para el 
recuento de los agujeros de cangrejo, una cuadrada y otra rectangular y se clasificaron 
los agujeros dependiendo de su tamaño como pequeño (P), mediano (M) o grande (G) 
como una estimación de la edad del cangrejo. 

En la imagen de la izquierda tenemos la hoja electrónica inicial donde se empezaron a 













































vaciar los datos. 


En la imagen de la derecha tenemos la hoja electrónica ya corregida para poder cargar 
los datos para su análisis. 
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Estructura adecuada 


Los nombres de las columnas (nombres de las variables) deben ser compatibles con 
las reglas para nombrar variables en R. 

Normalmente las hojas iniciales de datos tienen problemas con los nombres, que 
deben ser corregidos antes de proceder a importar los datos a R. 

Corrigiendo la base inicial para hacerla compatible con R. 

En el encabezado de las columnas (primera fila) se deben evitar nombres con espacios 
en blanco. Por ejemplo, si estamos analizando resultados de una competencia de 
atletismo, en vez de escribir "Salto Largo", podemos escribir "Saltojargo" o 
"salto.largo". 

Se deben evitar nombres con símbolos especiales: ?, $, *, +, #, (,), -, /,}, {, i, >, <, etc. 
Únicamente el guión bajo y el punto pueden ser usados. 

Se debe evitar iniciar el nombre de la variable con un número, por ejemplo para el 














































































































registro del tiempo en una carrera de 100 metros, debemos evitar "lOOm" y podemos 
usar "Tiempol OOm" o "TI OOm". 

Los nombres de las columnas deben ser únicos, no se permiten nombres duplicados. 

Es conveniente no poner nombres muy largos, porque complican la sintaxis en el 
momento del análisis (Generalmente estos nombres corresponden con el nombre de la 
variable). 

Hay que tener presente que: 

• R es sensible a las minúsculas y mayúsculas, lo que implica que "tiempo" es 
distinto a "Tiempo". 

• Se debe evitar dejar filas en blanco. 

• Se debe borrar cualquier comentario. 

• Se debe reemplazar los valores faltantes por NA (Not Available). 

• Para las fechas se debe usar el formato de cuatro dígitos en los años, así se 
debe usar "01 /OI /2016" en vez de "01 /OI /16". 


En las siguientes figuras vemos un ejemplo de nombres incorrectos y nombres 
correctos para importar los datos a R. 

En la figura de la izquierda tenemos nombres de variables incorrectos, mientras que en 
la de la derecha se muestran nombres compatibles con R para importar los datos. 










































































































































Instrumento de recolección de datos 


Otro aspecto que es importante revisar es ei instrumento de recolección de datos a utilizar. 

Generalmente las fichas que se emplean son como el ejemplo siguiente: 

LABORATORIO No. 4 


Nombré 

Talla 

Péso 

Cintura 


































El nombre del sujeto o unidad de estudio no es un dato que nos interese a menos que se 
piense hacer una rectificación de datos, por io que podría utilizarse un número de identificación 
como ei carné o un IDNO . 

En nuestro ejempio es importante determinar ei GRUPO o sección ai que pertenece nuestro 
sujeto, pero no está la columna en la ficha, por lo que la ficha realmente no nos va a ser de 
mucha utilidad. 

Paita también ios datos dei género y ia altura. 

Así mismo se recolectan los datos de talla, peso y cintura. Pero en la investigación interesa el 
IMG y la medida de la cintura, por io que podría anotarse el valor del IMG en vez de la talla y el 
peso. 

Si por cuestiones de tiempo en el momento del trabajo de campo no se puede calcular, 
entonces se toman los datos de talla y peso, dejando el espacio para anotar el IMC. 


Un ejemplo de como debería ser el instrumento de recoiección de datos es el siguiente: 




Nombre de quien anota: 


Fecha: 


IDNO 

Edad 

Género 

Talla 

Peso 

IMC 

Cintura 























Los datos pueden registrarse directamente en la hoja de cáicuio, que es a donde finaimente se 
transfieren para elaborar la base de datos. 
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Cargamos los datos y hacemos que el programa calcule el IMC, directamente en la hoja de 
cálculo. 


Y ya estamos listos para empezar el análisis. 


Distribución de frecuencias y cálculo de estadísticas 
descriptivas empieando Gnumeric. 

Aquí es cuando la ventaja del programa se hace visible. Para elaborar una distribución de 
frecuencias de la variable “edad”, por ejemplo, utilizamos la función 
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Este comando nos permite fabricar una 
distribución de frecuencias para variables 
cuantitativas, con solo indicar el rango de 
datos, el número de intervalos, el dato menor 
y el dato mayor. 





























































































































La primera pestaña de la ventana que se 
abre, nos permite seleccionar el rango de 
datos, así como indicar si nuestros datos 
están en columnas, filas o áreas combinadas 
de columnas y filas. 

Como vimos en la sección de preparación de 
la base de datos, es recomendable que estén 
en columnas. 

También nos permite indicarle al programa si 
la primera fila es de etiqueta, esto marcando 
el cuadrado donde dice “etiquetas” [Labeis] 

Para seleccionar el rango de datos hacemos 
click en el icono a la derecha donde dice 
“Input range” 


Luego nos ubicamos en el inicio de la 
columna que vamos a trabajar, en este 
ejemplo la variable edad. 

Y seleccionamos la columna completa. 

Al finalizar la selección, hacemos click en el 
icono a la derecha de donde se marca la 
selección y regresamos a la ventana donde 
estábamos anteriormente. 
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Ya con nuestros datos seleccionados, nos 
desplazamos a la siguiente pestaña: 
“Cutoffs”, que es donde le vamos a indicar al 
programa el número de intervalos y los 
límites inferior y superior. 
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La primera casilla [Number of cutoffs] es 
para el número de intervalos que vamos a 
querer. 

La segunda [Mínimum cutoff] es el límite 
inferior, que generalmente es nuestra 
observación más pequeña. 

La tercera casilla [Máximum cutoff] es el 
límite superior o dato máximo que vamos a 
incluir en la distribución de frecuencias. 

Para nuestro ejemplo, deseamos 8 
intervalos, el dato menor es 16 y el dato 
mayor es 30, así que seleccionamos esos 
valores. 



Y por último definimos donde queremos la 
salida de nuestra distribución de frecuencias. 

La opción por defecto es en una nueva hoja 
[New sheet] y es una buena opción, por lo 
que sugeriría no modificar nada en esta 
ventana. 

Le damos click en [OK] y listo! 



La siguiente pestaña nos permite definir la 
forma que queremos que se comporten 
nuestros intervalos, ya sea dejando abiertos 
los extremos inferior y superior, dejando 
abierto el extremo superior y exacto o 
aproximado el extremo inferior, dejando 
abierto el extremo inferior y exacto o 
aproximado el extremo superior, etc. 

En nuestro caso, seleccionamos no dejar 
abierto ninguno de los extremos. 
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Histogram 



El programa nos abre una nueva hoja electrónica con nuestra distribución de frecuencias en 
donde nos indica que: 


desde 16 hasta debajo de 18 tenemos 2 
datos. 

desde 18 hasta debajo de 20 tenemos 6 
datos. 

desde 20 hasta debajo de 22 tenemos 12 
datos. Etc. 

Lo que podemos convertir fácilmente en una 
distribución de frecuencias, como se muestra 
en el cuadro de la derecha. 
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Pero eso no es todo. 


De una manera igualmente sencilla podemos calcular todas las estadísticas descriptivas. 


Seleccionamos: [ Statistics], [Descriptivo Statistics], [Descriptivo Statistics...] 




Esto nos abre una ventana de diálogo como 
en la sección anterior, pero mucho más 
sencilla. 

Seleccionamos el rango de datos para 
analizar a través del icono a la derecha de 
[Input rango]. 

Los otros botones y opciones son iguales a 
los descritos anteriormente. 


Marcamos la columna que nos interesa, en 
este caso la columna de la edad, desde el 
primer dato hasta el último y finalizamos la 
selección haciendo click en el icono a la 
derecha de la ventana de selección. 

Esto nos regresa a la ventana anterior y 
seleccionamos la siguiente pestaña. 
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líT 

Descriptive Statistics 

i=i; 

|¡ Input 

I Statistics 1 

Output 


0 Summary Statistics 

□ Use ssmedian 

□ Confidence Interval for the Mean 
[l-alpha): C.-íSl 

□ Kth Largest 

K; ll ^ 

□ Kth Smallest 


n X 


Aquí la opción por defecto es [Summary 
Statistics], así que no debemos hacer nada 
más que darie [OK] 


K: I 1 


5 S Help 


^Cancel | ^OK 


a 


La úitima pestaña tampoco necesita ningún 
ajuste, y aquí ia muestro solo para fines de 
descripción. 

La opción de que ia salida de ios datos sea 
en una nueva hoja es la más adecuada, así 
que solo le damos [OK] 



















































































i B 


^1 

l.Co/umn 2 


2 Mean 

22.78 


3 ' Standard Error 

0.47491352596326 


4 '^Median 

22.5 


5 Mode 

21 


6 ' Standard Devi a don 

3.35814574685835 


7 '' Sample Vari anee 

11.2771428571429 


8 Kurtosis 

-0.74756243861829 


9 Skewness 

0.11127941583941 


10 Range 

14 


11 ' Mi ni mam 

16 


12 '^Máximum 

30 


13 

1139 


14 \Count 

50 


15 j 




El resultado que nos aparece en la nueva 
hoja, es un cálculo de las principales 
estadísticas descriptivas: 

La media aritmética, el error estándar, la 
mediana, la moda, la desviación estándar de 
una muestra, la varianza para una muestra, 
la curtósis, el sesgo, el rango de los datos, el 
mínimo, el máximo, la sumatoria de los datos 
y el número de datos. 

Si se está trabajando con una población, 
transformamos la varianza, multiplicándola 
por “n-1” y dividiéndola entre la “n”. A esta 
varianza corregida, le sacamos la raíz 
cuadrada y con esto tenemos la desviación 
estándar de la población. 


Cuadros para variables cualitativas. 

La elaboración de cuadros para variables cualitativas es más sencilla que una distribución de 
frecuencias y basta con contar cada categoría. 

Gnumeric también puede elaborar este tipo de cuadros, a través de seleccionar los datos. 

Para hacer esto utilizamos [Statistics], [Descriptive Statistics], [Frequency Jabíes], [Frequency 
Jabíes...] 


1 +ejGmplo.grumeric - GnuniGric 


File Edit yiew inserí Format Jools 


Statistics 


Data 


Help 


I Sans 


H ^ 'A 


Descriptive Statistics 


Sampling... 

Dependent Observations 



One Sample Tests 
“ Jwo Sample Tests 

B Múltiple Sample Tests 


Correlation... 

n V- 


Covariance... 

j 


Descriptive Statistics... 

™ ía> S: ■ i::i::í v. 


Frequency Jabíes > 

Frequency Jabíes... 


Ranks And Percentiles... | 

Histogram... 



> I F G ~ H [ i ■ J K ]' 


Esto nos abre una ventana de diálogo, donde podemos seleccionar nuestros datos cualitativos 
y ordenarlos en un cuadro de frecuencias. 










































































Frequency Tables X 



Seleccionamos el rango de datos, de manera 
similar a como hemos hecho anteriormente. 

Lo único que varía es que los datos que 
vamos a seleccionar ahora no son números, 
sino que categorías. 


The categories range is not valid, 


I I 


I I 


Seleccionamos la columna de la variable 
género, donde los valores son M para 
masculino y F para femenino. 

Al finalizar de seleccionar nuestra columna, 
hacemos click en el icono a la derecha de la 
ventana de selección. 












































E Frequency Tables 
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En la siguiente pestaña, en [Categories], 
seieccionamos las categorías que deseamos 
para presentar en nuestro cuadro. 

Esto podemos hacerlo escribiendo ias 
categorías en ia hoja eiectrónica, o 
seieccionando directamente las categorías 
de nuestros datos. 

Como en este caso el género solo tiene dos 
categorías, io haremos directamente desd ios 
datos. 

Abrimos la ventana de selección, haciendo 
click en el icono a ia derecha de [Category 
range] 


Seleccionamos M y F como nuestras 
categorías en el cuadro y finalizamos la 
selección haciendo ciick en ei icono a ia 
derecha de la ventana de selección. 
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Ei resuitado es un recuento de cada 
categoría, en nuestro caso M (masculino) 
tiene una frecuencia de 25 y F (femenino) 
una frecuencia de 25. 

Ei procedimiento es ei mismo para cuaiquier 
variable categórica. 











































































Análisis final 


Aplicando lo revisado con el gnumeric la elaboración de distribuciones de frecuencias y el 
análisis de datos es muy sencillo. 


En nuestro ejemplo, donde nos interesa el IMC: 
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Calculamos el cuadro de frecuencia para 
elaborar nuestra distribución de frecuencias. 


Con la distribución de frecuencias elaborada, 
calculamos la marca de clase de cada 
intervalo y utilizamos estos datos junto a la 
frecuencia para elaborar un polígono de 
frecuencias. 
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El polígono de frecuencias nos muestra un 
comportamiento asimétrico positivo. 


Las estadísticas descriptivas nos brindan el 
sesgo y la curtosis para verificar el 
comportamiento del grupo. 

En este caso el sesgo= 1.48 y sus límites +/- 
0.69 

por lo que es asimétrico positivo. 

La curtosis es 1.94 y sus límites son +/- 1.38, 
por lo que el grupo es leptocúrtico. 

El grupo no es normal. 



































































































